现有人重新识别(Reid)方法通常直接加载预先训练的ImageNet权重以进行初始化。然而,作为一个细粒度的分类任务,Reid更具挑战性,并且存在于想象成分类之间的大域差距。在本文中,通过自我监督的代表性的巨大成功的巨大成功,在本文中,我们为基于对比学习(CL)管道的对比训练,为REID设计了一个无人监督的训练框架,被称为上限。在预培训期间,我们试图解决学习细粒度的重点问题的两个关键问题:(1)CL流水线中的增强可能扭曲人物图像中的鉴别条款。 (2)未完全探索人物图像的细粒度局部特征。因此,我们在Up-Reid中引入了一个身份内 - 身份(i $ ^ 2 $ - )正则化,该正常化是从全局图像方面和本地补丁方面的两个约束:在增强和原始人物图像之间强制强制实施全局一致性为了增加增强的稳健性,而使用每个图像的本地斑块之间的内在对比度约束来完全探索局部鉴别的线索。在多个流行的RE-ID数据集上进行了广泛的实验,包括PersonX,Market1501,CuHK03和MSMT17,表明我们的上部Reid预训练模型可以显着使下游REID微调和实现最先进的性能。代码和模型将被释放到https://github.com/frost-yang-99/up -reid。
translated by 谷歌翻译
变压器是一个变革性框架,可以对顺序数据进行建模,并在广泛的任务上取得了出色的性能,但具有高计算和能源成本。为了提高其效率,一个受欢迎的选择是通过二进制化压缩模型,将浮点值限制为二进制值,以节省资源消耗,这是由于廉价的钻头操作而大大减少了资源。但是,现有的二进制方法仅旨在最大程度地统计地减少输入分布的信息损失,同时忽略了注意机制核心的成对相似性建模。为此,我们提出了一种新的二进制范式,通过二维软式散发范式通过二维的散布量表(称为ecoformer)将原始查询和钥匙映射到锤子空间中的低维二进制代码中。学会了内核化的哈希函数,以以自我监督的方式从注意图中提取的基础真相相似性关系匹配。基于二进制代码的内部乘积与锤距距离以及矩阵乘法的关联性质之间的等效性,我们可以通过将其表示为二进制代码的点产量来近似线性复杂性中的注意力。此外,查询和钥匙的紧凑型二进制表示使我们能够用简单的积累来代替大多数昂贵的多重收益操作,以节省边缘设备上的片上能量足迹。关于视觉和语言任务的广泛实验表明,生态学家始终如一地达到与标准专注的可比性,同时消耗了更少的资源。例如,与标准注意相比,基于PVTV2-B0和Imagenet-1K,EcoFormer可实现73%的能量足迹降低,性能下降仅为0.33%。代码可从https://github.com/ziplab/ecoformer获得。
translated by 谷歌翻译
动作检测的任务旨在在每个动作实例中同时推论动作类别和终点的本地化。尽管Vision Transformers推动了视频理解的最新进展,但由于在长时间的视频剪辑中,设计有效的架构以进行动作检测是不平凡的。为此,我们提出了一个有效的层次时空时空金字塔变压器(STPT)进行动作检测,这是基于以下事实:变压器中早期的自我注意力层仍然集中在局部模式上。具体而言,我们建议在早期阶段使用本地窗口注意来编码丰富的局部时空时空表示,同时应用全局注意模块以捕获后期的长期时空依赖性。通过这种方式,我们的STPT可以用冗余的大大减少来编码区域和依赖性,从而在准确性和效率之间进行有希望的权衡。例如,仅使用RGB输入,提议的STPT在Thumos14上获得了53.6%的地图,超过10%的I3D+AFSD RGB模型超过10%,并且对使用其他流量的额外流动功能的表现较少,该流量具有31%的GFLOPS ,它是一个有效,有效的端到端变压器框架,用于操作检测。
translated by 谷歌翻译
实例歧视对比学习(CL)在学习可转移表示方面取得了重大成功。与CL损失的温度$ \ tau $相关的硬度感知的属性被确定为在自动集中在硬性阴性样品上起着至关重要的作用。但是,先前的工作还证明了CL损失的均匀性困境(UTD)存在,这将导致意外的性能降解。具体而言,较小的温度有助于学习可分离的嵌入,但对语义相关样品的耐受性较小,这可能导致次优的嵌入空间,反之亦然。在本文中,我们提出了一种模型感的对比学习(MACL)策略来逃避UTD。对于训练不足的阶段,锚固的高相似性区域包含潜在的阳性样品的可能性较小。因此,在这些阶段采用较小的温度可以对硬性阴性样品施加更大的惩罚强度,以改善CL模型的歧视。相反,由于对潜在的阳性样品的耐受性,训练有素的相位较高的温度有助于探索语义结构。在实施过程中,MACL中的温度旨在适应反映CL模型置信度的对齐属性。此外,我们重新审查了为什么对比度学习需要在统一梯度降低的视角中大量负面样本。基于MACL和这些分析,在这项工作中提出了新的CL损失,以改善批量尺寸少量的学说和培训。
translated by 谷歌翻译
视觉变压器(VIT)触发了计算机视觉的最新和重大突破。它们的有效设计主要由计算复杂性的间接度量(即拖船)指导,但是,该指标与直接度量(例如吞吐量)具有明显的差距。因此,我们建议将目标平台上的直接速度评估作为有效VIT的设计原理。特别是,我们介绍了LITV2,这是一种简单有效的VIT,可与以更快的速度更快的不同模型大小相对现有的最新方法。 LITV2的核心是一种新型的自我发项机制,我们将其配音。希洛的灵感来自于洞察力的启发:图像中的高频捕获本地细节和低频集中在全球结构上,而多头自发项层则忽略了不同频率的特征。因此,我们建议通过将头部分为两组来解散注意力层中的高/低频模式,其中一组在每个本地窗口内通过自我关注来编码高频,而另一组则执行注意力以模拟全局关系。在每个窗口的平均低频键与输入功能图中的每个查询位置之间。从两组的有效设计中受益,我们表明希洛通过对GPU上的速度,速度和记忆消耗进行了全面测试,优于现有的注意机制。 LITV2由Hilo提供支持,是主流视觉任务的强大主链,包括图像分类,密集检测和分割。代码可从https://github.com/ziplab/litv2获得。
translated by 谷歌翻译
半监督域的适应性(SSDA)旨在将从完全标记的源域学习的知识应用于几乎没有标记的目标域。在本文中,我们为SSDA提出了一个多级一致性学习(MCL)框架。具体而言,我们的MCL将目标域样本的不同视图的一致性定于三个级别:(i)在域间级别,我们使用基于原型的最佳传输方法来稳健,准确地对齐源和目标域,该方法利用了PROS和PROS和PROS域目标样本不同观点的缺点; (ii)在域内层面上,我们通过提出新颖的班级对比聚类损失来促进歧视性和紧凑的目标特征表示。 (iii)在样本级别,我们遵循标准实践,并通过进行基于一致性的自我训练来提高预测准确性。从经验上,我们验证了MCL框架对三个流行的SSDA基准的有效性,即Visda2017,域名和办公室家庭数据集,实验结果表明我们的MCL框架可以实现最新的性能。
translated by 谷歌翻译
点云的语义分割通常依赖于累累且昂贵的致密注释,因此它吸引了广泛的关注,以研究弱监督方案的解决方案,仅稀疏点注释。现有作品从给定的标签开始,并将其传播到高度相关但无标记的点,例如数据的指导,例如内部关系。但是,它遭受了(i)对数据信息的效率低下的利用,并且(ii)在给出更少的注释时,很容易抑制对标签的强烈依赖。因此,我们提出了一个新颖的框架,即DimpMatch,它通过将一致性正则化应用于数据本身的足够探测信息,并同时利用弱标签作为帮助,该框架具有数据和标签。通过这样做,可以从数据和标签中学习有意义的信息,以获得更好的表示,这也使模型可以在标签稀疏度的范围内更强大。简单而有效的是,提议的尖头竞赛在Scannet-V2和S3DIS数据集上都在各种弱监督的方案下实现了最先进的性能,尤其是在具有极为稀疏标签的设置上,例如。在0.01%和0.1%的扫描仪V2设置上,SQN超过21.2%和17.2%。
translated by 谷歌翻译
视觉变压器(VITS)在各种计算机视觉任务方面取得了令人印象深刻的性能。然而,与多头自我关注(MSA)层建模的全局相关性导致两个广泛认可的问题:大规模计算资源消耗和用于建模局部视觉模式的内在电感偏差。一个统一的解决方案是搜索是否用基于神经架构搜索(NAS)的修剪方法来替换具有卷积相对的电感偏差的一些MSA层。然而,将MSA和不同的候选卷积作业保持为单独的可训练路径,这导致昂贵的搜索成本和具有挑战性的优化。相反,我们提出了一种新的MSA和卷积操作之间的重量共享方案,并将搜索问题投射为查找在每个MSA层中使用的参数子集。重量分享方案还允许我们设计自动单路径视觉变压器修剪方法(SPVIT),以便将预先训练的VIS,精简和紧凑的混合模型中快速修剪,以显着降低的搜索成本,给定目标效率约束。我们对两个代表性毒性模型进行了广泛的实验,显示了我们的方法实现了有利的准确性效率折衷。代码可在https://github.com/zhuang-group/spvit使用。
translated by 谷歌翻译
在设计高性能变压器方面有兴趣爆发。虽然变形金刚提供了显着的性能改进,但由于存储在背部经历期间梯度计算所需的所有中间激活,尤其是长序列,虽然变形金刚提供了显着的性能改进,但培训这种网络非常内存。为此,我们展示了MESA,一个用于变压器的节省记忆资源有效的训练框架。具体而言,MESA在转发过程中使用精确的激活,同时存储低精度版本的激活,以减少训练期间的内存消耗。然后在返回传播期间对低精度激活进行拆分以计算梯度。此外,为了解决多头自我注意层中的异构激活分布,我们提出了一种头脑激活量化策略,其基于每个头的统计量来量化激活,以最小化近似误差。为了进一步提高训练效率,我们通过运行估计来学习量化参数。更重要的是,通过在采用更大的批量大小或缩放模型尺寸时重新投资所保存的内存,我们可以进一步提高受约束的计算资源下的性能。关于Imagenet的广泛实验,CiFar-100和ADE20K表明,MESA可以在训练期间减少一半的内存足迹,同时实现可比或更好的性能。代码在https://github.com/zhuang-group/mesa获得
translated by 谷歌翻译
变压器已成为深度学习中的主导架构之一,特别是计算机视觉中的卷积神经网络(CNNS)的强大替代品。然而,由于长期表示的自我关注的二次复杂性,以前作品中的变压器培训和推理可能是非常昂贵的,特别是对于高分辨率密集预测任务。为此,我们提出了一种更少的关注视觉变压器(点亮),建立在变形金刚的早期自我注意层仍然专注于当地模式并在最近的等级视觉变压器中带来轻微的益处。具体而言,我们提出了一种分层变压器,在那里我们使用纯多层的感知(MLP)来在早期阶段编码丰富的本地模式,同时应用自我注意模块来捕获更深层中的较长依赖性。此外,我们进一步提出了一种学习的可变形的令牌合并模块,以以非均匀方式自适应地熔化信息贴片。建议的点亮在图像识别任务中实现了有希望的性能,包括图像分类,对象检测和实例分段,作为许多愿景任务的强骨干。代码可用:https://github.com/zhuang-group/lit
translated by 谷歌翻译